怎么提高python 中for循环的的效率

最新推荐文章于 2024-10-09 10:45:43 发布

winyn_

最新推荐文章于 2024-10-09 10:45:43 发布

阅读量2.7w

点赞数 5

文章标签： python 大数据

本文链接：https://blog.csdn.net/weixin_42920648/article/details/89970281

版权

对于某个城市的出租车数据，一天就有33210000条记录，如何将每辆车的数据单独拎出来放到一个专属的文件中呢？
思路很简单：
就是循环33210000条记录，将每辆车的数据搬运到它该去的文件中。
但是对于3000多万条数据，一个一个循环太消耗时间，我花了2个小时才搬运了60万数据，算算3000万我需要花费100个小时，也就需要4-5天。并且还需要保证这五天全天开机，不能出现卡机的事故。

因此，需要使用并行进行for循环的技巧：
由于3000万数据放到csv中导致csv打不开，因此我就把一个csv通过split软件将其切分成每份60万，共53个csv。
我原来的思路是读取文件夹，获取由每一个60万的csv文件组成的列表，再分别对每一个60万的csv进行处理。实质上还是循环33210000次，并行for循环就是同时处理几个60万的csv文件，就能成倍的减少时间消耗。
并行进行for循环是受下面的方法启发：
我之前的做法类似这样：

   words = ['apple', 'bananan', 'cake', 'dumpling']
   for word in words:
       print word

并行for循环类似这样：

from multiprocessing.dummy import Pool as ThreadPool
items = list()
pool = ThreadPool()
pool.map(process, items)
pool.close()
pool.join()

其中,process是进行处理的函数
实例代码如下：

# -*- coding: utf-8 -*-
import time
from multiprocessing.dummy import Pool as ThreadPool
def process(item):
   print('正在并行for循环')
   print(item)
    time.sleep(5)
items = ['apple', 'bananan', 'cake', 'dumpling']
pool = ThreadPool()
pool.map(process, items)
pool.close()
pool.join()